http://www.arocmag.com/article/02-2019-02-034.html 


分 布 式 入 侵 检测 中 基于 能 力 与 负载 的 数据 分 割 算法 ， 


张 润 莲 "*"， 李 ” 聚 *， 叶 志 博 *， 赵 新 红 。 


(桂林 电子 科技 大 学 a. 广西 可 信和 软件 重点 实验 室 ; b. 广西 无 线 宽带 通信 与 信号 处 理 重点 实验 室 ; c. 广西 密码 学 与 信息 
安全 重点 实验 室 , 广西 桂林 541004) 


摘 要 : 针对 高 速 网 络 环境 下 分 布 式 入 侵 检测 中 海量 数据 并 行 检测 处 理 的 效率 和 检测 率 问 题 ， 提 出 一 种 基于 能 力 与 负 
载 的 数据 分 割 算法 。 该 算法 依据 采集 到 的 集群 内 各 数据 分 析 节 点 的 系统 性 能 指标 及 运行 状态 ， 评 估 节 点 的 数据 处 理 能 
力 与 负载 程度 。 基 于 节点 的 能 力 与 负载 适应 因子 ， 权 衡 节 点 在 集群 中 检测 和 分 析 数 据 能 力 的 权重 ， 实 现 海量 数据 在 集 
群 内 各 数据 分 析 节 点 间 的 动态 数据 分 割 ， 为 节点 分 配 适应 其 能 力 与 实时 负载 的 数据 粒度 。 仿 真 测试 结果 表明 ， 该 算法 
具有 较 好 的 负载 均衡 性 ， 降 低 了 系统 的 检测 时 间 ， 提 高 了 数据 并 行 处 理 的 效率 和 检测 率 。 
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Abstract: Aiming at the efficiency and detection rate problems of the massive data parallel detecting in high speed network 
distributed intrusion detection, this paper proposed a data partitioning algorithm based on capacity and workload. In this 
algorithm, according to the collected performance indicators and running status of data analysis nodes for parallel data 
processing in the cluster, it evaluated the data processing capacity and the workload of nodes. Based on the node's capacity and 
load adjustment factor, realized the dynamic data partition among the data analysis nodes by considering the weight of the node 
for detecting and analyzing data in the cluster. It made the partitioned data granularity of the node matches with node 's capacity 
and real-time load. The tested results show that the proposed algorithm can reduce the detection time, improve the efficiency 
and detection rate of the data parallel processing. 
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0 引 网 络 安全 防御 系统 的 重要 组 成 部 分 。 为 提高 系统 的 检测 效率 ， 
针对 基于 检测 规则 的 检测 方法 ,文献 [1] 提 出 对 字符 串 匹 配 算法 

数据 的 分 布 采集 和 并 行 检测 处 理 ， 是 分 布 式 入 侵 检测 系统 ”的 改进 ， 增 加 检测 系统 的 吞吐 率 ， 针对 异常 检测 方法 ， 文 献 [2] 
(distributed instruction detection system, DIDS) 能 够 处 理 高 速 网 采用 SVM 及 分 类 方法 提高 检测 速度 。 为 提高 检测 率 ， 文 献 [3] 
络 中 海量 数据 的 关键 。 并 行 数据 的 粒度 大 小 ， 即 分 配给 节点 进 通过 提高 数据 包 的 抓 取 、 过 滤 和 匹配 速度 ， 降 低 在 高 速 网 络 环 
行 并 行 处 理 的 数据 子 集 ， 影 响 系统 的 吞吐 量 和 负载 均衡 。 数 据 ” 境 下 的 丢 包 率 ， 提 高 检测 的 准确 率 。 为 提高 系统 检测 的 自 适应 
分 割 算法 则 是 按照 特定 的 方式 ， 将 海量 数据 分 割 成 不 同 子 集 的 性 和 扩展 性 , 文献 [4] 基 于 GHSOM 神经 网 络 对 新 出 现 的 攻击 进 
方法 。 数 据 分 割 算法 的 好 坏 ， 决 定 了 数据 分 配 的 合理 性 ， 也 影 ” 行 增 量 式 学 习 。 针 对 海量 数据 的 检测 处 理 ， 文 献 [5] 采 用 数据 分 
响 着 系统 负载 均衡 和 系统 性 能 。 割 方法 ， 提 出 数据 流 的 分 片 机 制 ; 文献 [6] 将 大 数据 集 随 机 分 割 
入 侵 检测 技术 作为 一 种 主动 的 网 络 安全 保护 技术 ， 已 成 为 ”后 分 发 给 独立 的 神经 网 络 并 行 学 习 ; 文献 [7] 采 用 一 种 分 布 式 离 
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群 点 检测 算法 ， 均 衡 各 计算 节点 的 工作 负载 。 


数据 分 割 算法 被 广泛 应 用 在 并 行 计算 和 大 规模 数据 处 理 中 ， 


维持 负载 均衡 , 提高 吞吐 量 。 文 献 [8] 通 过 构造 分 割 函数 及 算法 
实现 数据 流 分 割 和 并 行 处 理 ; 文献 [9] 按 照 多 轮 分 配 分 区 策略 调 
整 对 Reducer 的 数据 指派 ,解决 MapReduce 中 数据 划分 引起 的 
数据 倾斜 问题 ; 文献 [10] 针 对 数据 密集 型 应 用 , 采集 并 评估 节点 
性 能 ， 调 整数 据 分 配 的 大 小 与 数量 ， 提 高 效率 。 

本 文 针 对 DIDS 中 海量 数据 的 并 行 检测 处 理 问 题 ， 提 出 一 

基于 能 力 与 负载 的 数据 分 割 算法 ， 通 过 监控 、 采 集 集 群 内 各 
节点 的 性 能 指标 和 实时 运行 状态 ， 评 估 节 点 的 数据 处 理 能 力 和 
负载 ， 权 衡 各 节点 能 力 与 负载 在 集群 节点 中 的 比重 ， 并 以 之 进 
行 数据 分 割 和 数据 分 配 ， 有 效 发 挥 节点 的 能 力 ， 维 持 系统 负载 
均衡 ， 提 高 系统 效率 和 检测 率 。 


1 ”分 布 式 入 侵 检 测 系统 结构 


在 分 布 式 入 侵 检测 中 ， 为 提高 系统 性 能 ， 通 过 多 个 分 布 的 
传感器 节点 并 行 采集 网 络 数据 ， 再 将 采集 的 海量 数据 分 割 并 分 
发 到 多 个 节点 并 行 检测 处 理 ， 提 高 系统 的 数据 处 理 能 力 。 本 文 
采用 一 种 基于 能 力 和 负载 的 数据 分 割 算 法 进行 数据 分 割 ， 系 统 
结构 如 图 1 所 示 ， 包 括 数据 采集 、 控 制 中 心 和 数据 分 析 检 测 三 
部 分 ， 控 制 中 心包 括 系统 监控 、 任 务 调 度 器 和 报警 响应 。 
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图 1 系统 结构 
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节点 的 硬件 配置 确定 ， 通 过 系统 监控 可 以 采集 相关 性 


其 主要 
能 指标 。 本 文 对 节点 的 数据 处 理 能 力主 要 考虑 节点 CPU、 内 存 
和 网 络 带 宽 的 大 小 ， 以 C4PQ) 表 示 i 节点 的 数据 处 理 能 力 ， 计 
算 公 式 如 下 : 


CAP(i) =a xCPU, +a,xM,+a,xN, 1) 
其 中 : a1、a2、Q@3 为 节点 CPU、 内 存 和 网 络 带宽 对 数据 处 理 能 
力 的 影响 因子 , aitaztas=1; CPUi、Mi、 Ni 分 别 为 i 节点 的 CPU 
个 数 与 MIPS 大 小 的 乘积 、 内 存 大 小 和 网 络 带 宽 。 因 不 同 指标 
数据 单位 不 一 、 数 值 取 值 范围 可 能 相差 较 大 ， 在 计算 前 先 对 采 
集 的 指标 数据 采用 min-max 线性 函数 转换 方法 进行 归 一 化 处 理 ， 
使 得 数据 能 够 较 好 地 收敛 到 一 个 相同 的 区 间 。 式 (1) 中 的 CPU 
Mi、NNi 均 为 归 一 化 后 的 结果 。 
节点 的 异 构 性 ， 使 得 在 数据 分 割 和 分 配 时 缺乏 对 比 和 参照 
的 基准 ， 数 据 粒度 的 大 小 划分 也 难以 控制 。 针 对 该 问题 ， 基 于 
节点 的 数据 处 理 能 力 ， 构 造 一 个 反映 节点 间 能 力 对 比 参照 的 指 


uy 
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标 一 一 节点 能 力 因子 ， 以 CLG) 表 示 i 节点 的 能 力 因子 ， 计 算 广 
法 如 下 : 
CA4PO) 
人 Min{CAP(D|1 < j <m 2 
其 中 ，m 为 集群 中 节点 的 数量 。 
2.2 ”节点 负载 计算 


节点 的 负载 是 影响 分 配给 节点 数据 粒度 大 小 的 另 一 个 重要 
因素 。 对 数据 分 析 节 点 的 负载 评估 ， 根 据 系 统 监控 采集 的 节点 
CPU、 内 存 和 网 络 带宽 的 利用 率 完成 。 以 LG) 表示 i 节点 的 负 
载 ， 计 算 公 式 如 下 : 
L(i)=b xL(CPU) +b, xL(M,) +b,xL(N,) G) 
其 中 : Z(CPUD 、ZOA、ZCOM 分 别 为 了 节点 的 CPU、 内 存 和 网 络 
带宽 的 利用 率 ; bl1、b、b3 为 i 节点 CPU、 内 存 和 网 络 带 宽 的 利 
率 对 节点 负载 的 影响 因子 ，b1+b2+b3=1。 
2.3 数据 分 割 及 分 配 
为 保证 数据 分 割 的 合理 性 ， 在 数据 分 配 时 ， 先 判断 节点 的 
负载 状态 ， 避 免 为 已 过 载 节 点 分 配 数据 而 造成 延迟 增加 。 为 评 
估 节 点 负载 状态 ， 设 置 一 个 负载 轻 载 闵 值 a 和 一 个 负载 过 载 闵 


图 ! 中 ， 在 控制 中 心 ， 系 统 监控 采集 集群 内 各 数据 分 析 节 
点 的 性 能 指标 及 运行 情况 ， 包 括 CPU/ 内 存 / 硬 盘 大 小 和 利用 率 
等 ,为 数据 分 割 提供 决策 支持 。 任 务 调度 器 基于 数据 分 割 算 法 ， 
评估 节点 的 能 力 和 负载 ， 进 行 数据 分 割 。 报 警 响 应 对 各 数据 分 
析 节 点 的 入 侵 检测 结果 进行 报警 响应 。 

数据 分 析 检 测 由 各 异 构 节 点 对 采集 及 分 配 的 数据 检测 ， 将 
检测 结果 反馈 给 报警 响应 模块 处 理 。 


2 ”基于 能 力 与 负载 的 数据 分 割 算 法 


本 文通 过 对 节点 能 力 和 负载 的 评估 ， 为 节点 动态 分 割 数据 


子 和 
2.1 节点 能 力 计算 
节点 的 能 力 是 决定 分 配给 节点 数据 粒度 大 小 的 重要 依据 ， 
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值 6p; 并 基于 节点 负载 状态 构造 一 个 能 够 反映 节点 负载 对 数据 
分 割 的 数据 粒度 大 小 的 影响 因子 一 一 负载 适应 因子 ， 以 E(i) 表 
示 主 节点 的 负载 适应 因子 ， 计 算 公 式 如 下 : 


L(i)—al 
LOD) 
E(i)=40, ZLOD>A (4) 
IL) -4A| 
L(2) 


， L()<a 


,<L()<B 


基于 对 节点 能 力 和 负载 的 评估 ， 以 WG) 表示 节点 的 能 力 与 
负载 在 集群 内 所 有 数据 分 析 节 点 中 的 权重 : 
CLOxEO) 

和 CLOxEG) (5) 


W(i) = 
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其 中 : 7 为 集群 内 数据 分 析 节 点 的 数量 ; 
点 能 力 因 子 和 负载 影响 因子 。 在 式 (53) 中 ， 
载 越 轻 ， 其 所 占 权重 越 大 。 

以 DO) 表 示 从 待 处 理 的 海量 数据 集 M 中 , 依据 节点 的 权 值 
Wi) 分 割 并 分 配给 i 节点 的 数据 子 集 即 数据 粒度 大 小 ， 计 算 公 
式 如 下 : 


CL(?)、EQ) 分 别 为 i 节 
节点 的 能 力 越 强 ， 负 


DO =M xWO) (6) 
3 ”实验 结果 与 分 析 


3.1 实验 环境 

本 文 基于 Hadoop 完成 分 布 式 入 侵 检 测 系 统 模 型 架构 ， 采 
] Java 语言 实现 基于 能 力 与 负载 的 数据 分 割 算法 , 并 将 该 算法 
于 控制 中 心 的 任务 调度 ， 完 成 数据 分 割 和 数据 分 配 。 控 制 中 
心 作为 master 节点 ， 采 用 MapReduce 与 slave 节点 通信 ，slave 
节点 包括 系统 监控 节点 和 数据 分 析 节 点 等 。 系 统 依托 校园 网 ， 
实现 各 功能 节点 的 分 布 部 署 。 其中，Hadoop 集群 中 的 各 节点 均 
安装 Ubuntu 10.04 操作 系统 ;Master 配置 为 Intel 酷 害 3.3 GHz、 
4 GB 内 存 、500 GB 硬盘 :系统 监控 节点 、 报 警 响应 节点 和 数 
据 存 储 节点 配置 均 为 Intel 奔腾 2.8 GHz、2 GB 内 存 、250 GB 
硬盘 ; 各 数据 分 析 节 点 异 构 。 
本 文 侧重 考虑 通过 对 海量 数据 的 并 行 检测 处 理 ， 以 提高 系 
统 性 能 ， 故 在 测试 中 ， 主 要 测试 数据 分 割 算 法 对 海量 数据 分 割 
的 合理 性 ， 数 据 分 割 后 分 配 到 数据 分 析 节 点 并 行 检测 处 理 时 的 
系统 负载 均衡 性 ， 以 及 对 系统 性 能 的 改善 情况 。 本 文 测试 采用 
经 典 的 DARPA2000 数据 集 ， 下 载 了 约 3 GB 的 DARPA2000 数 
据 集 存放 在 数据 存储 节点 上 ; 在 数据 分 析 节点 上 ， 为 保证 检测 
结果 的 一 致 性 和 有 效 性 ， 安 装配 置 Snort 系统 ， 在 接收 到 由 
master 分 割 并 分 配 的 待 检测 数据 后 ， 由 Snort 系统 进行 数据 检 
测 ， 系 统 监控 采用 开源 工具 Sigar 采集 各 数据 分 析 节 点 运行 状 
态 ; 报警 响应 节点 对 检测 的 入 侵 行为 进行 报警 处 理 。 
基于 上 述 实验 环境 和 实验 数据 ， 本 节 对 基于 能 力 与 负载 的 
数据 分 割 算法 的 负载 均衡 性 、 检 测 时 间 和 检测 率 进行 了 测试 ， 
与 文献 [10] 的 动态 负载 调整 方法 、 一 致 性 哈 希 算法 [11] 进 行 对 
比 。 
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本 文 算法 中 的 相关 参数 设置 如 下 : 

a) 在 式 (1) 中 , 根据 节点 CPU、 内 存 和 带宽 对 数据 处 理 的 影 
响 以 及 不 同 参数 的 处 理 效果 ， 取 al=0.4、a2s=0.3、a3=0.3; 

b) 在 式 (3) 中 ，b1=0.4、b2=0.3、b3=0.3; 

c) 根据 对 系统 轻 载 和 过 载 的 经 验 认 知 , 设 
o=0.3， 负 载 过 载 闵 值 f=0.7; 

d) 数据 分 析 节 点 组 包含 8 个 异 构 节 点 。 
3.2 ”实验 结果 与 分 析 

实验 1 负载 均衡 测试 

本 文 测试 共 使 用 八 台 性 能 异 构 的 节点 进行 数据 分 析 检 测 ， 
各 节点 编号 依次 为 S1、S2、…、S8。 在 仿真 测试 前 ， 测 得 各 节 
点 的 性 能 比例 为 : 1:3.4:1.4:1.3:1:1.3:1.4:1.1。 实 验 中 ， 分 别 测试 
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本 文 算法 、 文献 [10] 方 法 和 一 致 性 哈 希 算法 对 3 GB 数据 
分 配 到 八 个 节点 上 的 数据 子 集结 果 如 表 1 所 示 。 


表 1 采用 不 同 算法 进行 数据 分 割 后 的 数据 量 分 布 结果 
i 算 法 

一 致 性 哈 希 算法 文献 [10] 方 法 “本文 算法 
S1 376.8 301.3 291.5 
S2 383.3 765.7 783.2 
S3 391.1 313.4 302.7 
S4 385.3 251.2 244.5 
S5 388.1 325.2 343.8 
S6 390.5 481.3 490.2 
S7 384.4 315.4 296.3 
S8 377.7 310.7 319.9 


表 1 数据 显示 ， 一 致 性 哈 希 算 法 通过 虚拟 节点 的 映射 关系 
进行 数据 分 割 ， 没 有 考虑 节点 的 能 力 与 负载 ， 分 割 和 分 配 到 节 
点 的 数据 子 集 相差 不 大 ;， 文献 [10] 方 法 采用 其 公式 计算 节点 对 


数据 集 的 计算 时 间 ， 并 以 其 大 小 动态 调整 分 配 的 数据 量 ， 该 方 
法 分 配给 节点 的 数据 量 能 够 适应 节点 的 性 能 ， 本 文 算法 在 对 节 


点 能 力 进行 评估 外 ， 进 一 步 考虑 了 节点 的 实时 负载 变化 ， 其 分 
配给 节点 的 数据 子 集 更 好 地 适应 了 节点 的 需求 。 

在 上 述 三 种 算法 将 数据 分 割 并 分 配 到 八 个 节点 后 ， 采 用 负 
载 均衡 度 DBM(CDD3 对 比 测试 在 八 个 节点 上 的 负载 均衡 性 ， 测 
试 结果 如 图 2 所 示 。 
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eb 一 一 文献 [10j 方 法 
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图 2 不 同 算法 负载 均衡 度 对 比 测试 


图 2 显示 ， 一 致 性 哈 希 算法 的 QLBM(D 值 最 大 ， 其 因为 缺 
乏 负载 调整 机 制 ， 给 各 节点 分 配 的 数据 比较 均匀 ， 低 性 能 和 负 
载重 的 节点 被 分 配 过 多 的 数据 ， 负 载 不 均衡 ， 本文 算法 与 文献 
[10] 的 5LBM(D) 值 相差 较 小 ,但 其 变化 波动 更 小 , 系统 更 加 稳定 。 

实验 2 检测 时 间 测 试 

节点 负载 的 失衡 ， 将 会 导致 节点 响应 延迟 ， 影 响 系 统 整 体 
性 能 。 基 于 上 述 的 数据 分 割 和 数据 分 配 ， 分 别 测试 了 各 节点 对 
被 分 配 的 数据 子 集 进 行 入 侵 检 测 的 时 间 开 销 ,结果 如 表 2 所 示 。 
表 2 中 ,ST 行 中 的 数据 为 各 算法 测 得 的 所 有 节点 完成 数据 检测 
的 系统 检测 时 间 总 和 。 
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表 2 对 不 同 算法 分 割 数据 后 的 检测 时 间 测 试 结果 


着 算 法 
一 致 性 哈 希 算法 。 文献 [10] 方 法 ”本 文 算法 

S1 136.3 77 78 
S2 53 76 83 
S3 76 70 63 
S4 87 75 71 
S5 115 90 86 
S6 83 7 94 
S7 77 68 65 
S8 102 86 89 
ST Wo 639 629 


Ht 


表 2 显示 ， 在 同样 的 测试 条 件 下 ， 一 致 性 哈 希 算法 因数 据 
分 割 和 分 配 的 不 均衡 ,其 检测 任务 的 时 间 最 长 ，ST 最 大 。 文献 
[10] 方 法 与 本 文 算法 都 进行 了 负载 均衡 调整 ， 数据 分 配 较 合理 ， 
节点 检测 时 间 都 大 大 降低 ， 本 文 算法 因 更 好 的 负载 均衡 性 ， 其 
检测 时 间 稍 低 。 
实验 3 检测 率 测 试 
基于 上 述 进行 的 数据 分 割 和 数据 分 配 ， 测 试 各 节点 对 被 分 


配 数据 子 集 进 行 入 侵 检 测 的 检测 率 。 测 试 结果 表明 ， 一 致 性 哈 
希 算法 分 割 后 的 检测 率 最 低 约 为 87.3%， 主 要 在 于 其 通过 数据 
包 和 虚拟 节点 的 映射 关系 进行 数据 分 割 ， 分 割 粒度 小 ， 对 会 话 


的 完整 性 破坏 大 , 降低 了 检测 率 。 文献 [10] 方 法 与 本 文 算法 都 未 
考虑 数据 完整 性 处 理 ， 两 者 因 分 割 的 次 数 少 ， 对 数据 的 完整 必 
破坏 小 ， 两 者 检测 率 相 近 约 为 99%。 
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针对 分 布 式 入 侵 检测 
出 一 种 基于 能 力 与 负载 上 
的 能 力 和 实际 负载 情况 ， 
据 分 配 关 系 ， 为 数据 处 理 能 


时 溢 瑟 
HH 


海量 数据 的 并 行 检测 处 理 问题 ， 提 
分 割 算法 ， 该 算法 通过 评估 节点 
集群 内 权衡 各 节点 的 实际 状态 及 数 

能 力 强 且 负 载 轻 的 节点 分 配 更 多 的 待 
处 理 数据 ;该 算法 以 节点 的 实际 性 能 和 负载 进行 数据 分 割 和 分 
配 ， 充 分 发 挥 节 点 的 能 力 ， 并 避免 了 数据 处 理 能 力 弱 或 负载 过 
重 的 节点 被 分 配 大 量 的 数据 而 影响 系统 性 能 。 仿 真 测试 结果 
明 ， 本 文 算法 对 节点 的 数据 分 割 和 分 配 符合 节点 的 能 力 与 实时 
负载 状态 ， 系 统 负载 均衡 性 好 ， 而 良好 的 负载 均衡 ， 有 效 降低 
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张 润 莲 ， 等 : 


了 系统 并 行 处 理 的 时 间 开 销 ， 提 高 了 系统 性 能 和 检测 率 。 在 下 
一 步 的 工作 中 ， 将 考虑 如 何在 数据 分 割 中 保证 数据 的 完整 性 ， 
进一步 提高 检测 率 。 
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